AI

인공지능기초_03_생성 모델과 데이터 윤리

작성자 : Heehyeon Yoo|2025-12-01
# AI# GenerativeModel# PromptEngineering# Ethics# Copyright

1. 개요

생성 모델은 기존 데이터의 분포를 학습한 뒤, 단순 분류를 넘어서 새로운 결과물을 만들어내는 모델이다. 이미지, 텍스트, 음성처럼 원래 없던 데이터를 직접 생성한다는 점이 핵심이다.

대표 사례로는 Midjourney가 만든 '스페이스 오페라 극장(Théâtre D'opéra Spatial)'이 있다. 이 작품이 미술 대회에서 우승하면서, 생성 AI가 창작 영역까지 들어왔다는 인식이 널리 퍼졌다.

2. 생성 모델의 주요 특징(Characteristics)

생성 모델은 기존 AI 모델과 비교했을 때 규모와 사용 방식에서 차이가 크다.

2.1. 거대 모델(Large Scale Model)

생성 모델은 기존 모델보다 훨씬 많은 파라미터를 가진다. 모델 규모 자체가 커지면서 표현력도 함께 올라간다.

2020년 이전에는 10억 개 안팎의 파라미터가 큰 편이었지만, 2021년 GPT-3는 1,750억 개까지 올라갔다. 대략 17.5배 규모로 커진 셈이다.

2.2. 대규모 데이터셋(Massive Dataset)

이런 모델을 학습시키려면 데이터도 엄청나게 많이 필요하다. 모델 성능이 데이터 양과 품질에 크게 좌우되기 때문이다.

  • DALL-E: 약 2억 5천만 개의 이미지-텍스트 쌍으로 학습
  • ChatGPT: 약 3,000억 개의 자연어 토큰으로 학습

2.3. 프롬프트 엔지니어링(Prompt Engineering)

프롬프트 엔지니어링은 원하는 결과를 얻기 위해 입력 문장을 조정하는 기술이다. 같은 모델이라도 프롬프트 설계에 따라 결과 품질이 크게 달라진다.

"검은 베레모를 쓴 시바견"처럼 구체적인 지시를 주거나, "반 고흐 스타일"처럼 표현 방식을 지정하면 결과를 더 세밀하게 제어할 수 있다.

Chain of Thought처럼 "단계별로 생각해봐" 같은 문장을 덧붙였을 때 추론 성능이 좋아지는 현상도 널리 알려졌다.

3. 주요 응용 사례

생성 모델은 이미 여러 형태의 서비스로 쓰이고 있다.

3.1. 이미지 생성(Image Generation)

  • DALL-E, Midjourney: 텍스트 설명을 받아 이미지를 생성한다.
  • NovelAI: GPT-3.5 기반 소설 작성 서비스에서 출발했고, 이후 Danbooru 태그 기반 애니메이션 캐릭터 생성 기능으로 확장됐다. 이미지 품질 향상과 채색 기능도 함께 제공한다.

3.2. 텍스트 생성(Text Generation)

  • ChatGPT: 자연어 질의응답, 코드 작성, 문서 요약처럼 범용 언어 작업을 수행한다.

4. 윤리적 쟁점(Ethical Issues)

기술이 빠르게 확산된 만큼, 윤리와 제도 문제도 같이 커졌다.

4.1. 저작권(Copyright) 및 데이터 세탁

가장 먼저 나오는 쟁점은 데이터 출처 문제다. NovelAI 등이 학습에 사용한 Danbooru에는 불법 전재 이미지가 많이 포함돼 있었다. 원작자 동의 없이 학습한 데이터로 화풍을 모방한 결과물이 대량으로 생성된다는 점이 문제다.

실제로 故 김정기 작가의 화풍을 학습한 AI 모델이 작가 사망 직후 공개되면서 큰 논란이 있었다.

4.2. 책임 소재의 모호성

AI가 만든 결과물로 문제가 생겼을 때 책임이 누구에게 있는지도 모호하다.

  • 개발사와 사용자 사이의 책임 공방: 도구 제공자, 학습 데이터 제공자, 프롬프트 입력자 중 누가 더 큰 책임을 져야 하는지 명확하지 않다.
  • 저작권 인정 여부: 현행법은 AI가 단독 생성한 저작물에 저작권을 인정하지 않는 방향으로 가는 편이다. AI 작곡가 '이봄'의 저작권료 지급 중단 사례가 대표적이다.

5. 정리

생성 모델의 발전 속도는 법과 제도가 따라오는 속도보다 훨씬 빠르다. 그래서 데이터 윤리와 AI 윤리에 대한 사회적 합의를 서둘러 만들 필요가 있다.